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摘 要 : 针对 图 像 识别 算法 中 图 像 集 上 几何 曲面 的 特定 分 类 会 导致 判别 信息 丢失 的 问题 ， 提 出 一 种 融合 卷 积 神经 网 络 
的 改进 型 选 代 深 度 学 习 算 法 (IIDLA)。 该 算法 采用 混合 卷 积 网 (PCL) 进 行 底层 的 平移 不 变 特征 学 习 ， 以 层次 化 的 方式 迄 
代 应 用 卷 积 神经 网 络 (CNN) 对 输入 图 像 集 的 不 同 非 线性 特征 进行 学 习 。 算 法 的 图 库 和 查询 实例 中 包括 了 不 同 视 角 、 背 
景 、 面 部 表情 、 解 析 度 和 照明 度 的 人 脸 或 物体 图 像 集 。 采 用 数据 集 将 提出 的 算法 与 其 他 算法 进行 评估 对 比 ， 实 验 结果 
表明 ， 提 出 的 算法 在 被 测 数 据 集 上 的 性 能 最 优 。 
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Research of image recognition based on improved iterative depth learning algorithm using 
Convolutional Neural Network 
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Abstract: Aiming at the problem that the specific classification of geometric surfaces on the set of image recognition algorithms 
can lead to the loss of discriminative information, this paper proposes an Improved Iterative Depth Learning Algorithm (IIDLA) 
based on convolution neural network. The algorithm uses the hybrid convolution network (PCL) to perform the translation 
invariant feature learning at the bottom, and uses iteratively applies convolutional neural network (CNN) to learn different 
nonlinear characteristics of the input image set in a hierarchical way. The graphic library and query examples of the algorithm 
include different perspectives, backgrounds, facial expressions, resolution and illumination, and the image sets of objects or 
objects. A data set is used to compare the proposed algorithm with other algorithms, and the experimental results show that the 
proposed algorithm has the best performance on the measured data set. 
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的 广泛 使 用 使 得 获取 图 像 集 更 为 便捷 ， 如 监控 场景 、 室 内 机 器 
0 引言 人 导航 和 定位 等 。 虽然 基于 图 像 集 的 人 脸 /物体 识别 具备 较 好 的 
面部 和 物体 识别 在 现实 生活 有 着 各 种 各 样 的 应 用 ， 如 人 机 ”分 类 性 能 ， 但 是 对 急剧 增加 的 庞大 数据 量 进行 有 效 处 理 并 识别 
交互 、 监控 、 普 适 计算 和 访问 控制 等 1。 光照 和 视角 变化 带 来 的 。 ”仍然 耿 待 解决 . 简 而 言 之 , 基于 图 像 集 的 针对 面部 表情 、 光 照 、 
影响 使 得 人 脸 / 物 体 识别 成 为 一 项 非常 具有 挑战 性 的 任务 Pa。 环境、 视角 变化 条 件 下 人 脸 /物体 的 识别 仍然 是 研究 的 热点 。 
近年 来 ， 基 于 图 像 集 的 人 脸 /物体 识别 备 受 关注 印 ， 这 主要 是 文献 [6] 在 非 线性 流 形 上 对 图 像 集 的 变化 信息 进行 几何 
于 以 下 两 个 原因 首先 ， 相 比 于 单一 人 脸 照片 ， 图 像 集 提供 了 模 ， 文 献 [7] 在 格拉 斯 曼 流 形 上 对 图 像 集 的 变化 进行 几何 建 模 ; 
更 多 关于 目标 面部 或 其 他 外 表 的 信息 .在 面部 表情 \ 照 明 条 件 、 而 文献 [8.9] 分 别 在 黎 曼 流 形 、 子 空间 模拟 上 对 图 像 集 进行 几何 
环境 、 视 角 等 条 件 变化 的 环境 下 ， 一 段 时 间 内 捕获 的 人 脸 /物体 ， 建 模 。 这 三 种 算法 均 会 对 图 像 集 几何 表面 上 的 特定 类 做 出 预先 
像 集 均 可 供 学 习 、 训 练 使 用 四。 其 次 ， 低 成 本 便携 式 传感器 。 ”假设 ， 导 致 部 分 判别 信息 丢失 ， 而 判别 信息 的 丢失 所 引起 的 识 
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别 偏差 将 不 可 避免 。 对 于 图 像 集 分 类 所 面临 的 如 何 建 模 获得 图 。 等 问题 。 实 验 结果 表明 提出 的 算法 在 人 脸 识 别 、 物 体 分 类 的 性 
库 集 之 间 的 距离 ， 即 相似 度 的 问题 也 有 较 多 研究 。 文 献 [9] 采 用 能 上 取得 了 较 好 的 效果 。 

参数 建 模 法 ， 以 参数 分 布 的 形式 表示 图 像 集 ， 使 用 相对 糖 来 度 

量 分 布 之 间 的 相似 性 ， 但 算法 需要 图 库 和 查询 图 像 集 之 间 有 较 。 1 改进 型 过 代 深度 学 习 算法 

强 的 统计 关系 才能 实现 较 好 的 性 能 。 如 果 测 试图 像 集 和 训练 图 深度 学 习 模型 发 展 至 今 已 有 卷 积 神经 网 络 、 深 度 置信 网 
像 集 之 间 没有 较 强 的 统计 关系 ， 将 无 法 得 到 有 效 的 参数 ， 而 且 。 络 、 层 又 自 动 去 品 编 码 机 等 不 同 模型 。 其 中 卷 积 神经 网 络 通 

算法 对 数据 集 规模 大 小 也 有 一 定 的 要 求 ， 即 过 小 规模 的 数据 集 。 过 卷 积 操作 自动 提取 输入 数据 的 不 同 特征 ， 已 经 成 为 了 无 监督 
将 导致 该 算法 失效 。 预 训练 神经 网 络 的 代表 。 

为 了 改善 参数 化 建 模 法 的 不 足 ， 非 参数 建 模 法 越 来 越 受 关 本 文 提出 的 IDLA 一 定 程度 上 借鉴 了 卷 积 神经 网 络 的 理论 
注 ， 与 参数 化 建 模 法 不 同 的 是 非 参数 建 模 法 不 依赖 于 数据 分 布 。 架构 并 进行 改进 。 提 出 的 IIDLA 由 编码 层 、 解 码 层 和 隐藏 层 组 
规律 的 假设 。 文 献 [10] 提 出 了 图 像 集 分 类 的 非 参数 建 模 法 , 算法 。 “成, 需要 注意 的 是 IDLA 与 文献 [15] 中 的 ADNT 有 着 明显 的 差 
通过 典型 样本 逼近 图 像 集 ， 性 能 表现 达到 了 预期 效果 。 基 于 几 。 异 .首先 , 在 ADNT 中 是 随机 选择 层 数 和 每 一 层 的 大 小 。 其 次 ， 
何 表面 的 算法 利用 几何 表面 上 的 点 表示 完整 的 图 像 ， 图 像 集 可 “ADNT 的 性 能 取决 于 手动 生成 的 LBP 特征 。 第 三 , ADNT 的 自 
以 在 复杂 的 非 线性 流 形 上 建 模 ， 也 可 以 利用 表面 或 混合 表面 建 ”编码 基于 稀 琉 编码 的 概念 ， 而 稀 琉 编码 的 最 大 缺点 是 是 对 于 大 
模 [1。 文 献 [12] 从 几何 图 像 的 仿 射 包 或 吓 包 算法 中 得 到 的 集合 。 ”的 输入 维 数 ， 在 速度 方面 的 伸缩 性 较 差 。 第 四 ，ADNT 需要 非 
样本 ， 使 用 特征 角 来 确定 以 子 空间 作为 表征 的 图 像 集 间距 离 。 。” 常 谨慎 地 选择 隐藏 层 的 节点 数 。 因 为 如 果 隐 藏 层 的 节点 数 比 输 
两 个 子 空间 的 特征 角 0 < <…0， Kt/2 定 义 为 一 个 子 空 。 入 、 输 出 层 的 少 ， 则 会 导致 算法 将 最 终 隐藏 层 的 启动 当成 输入 
间 中 任意 向 量 和 第 一 个子 空间 中 任意 向 量 之 间 夹 角 的 最 小 什 ， en rie lta J 
而 主角 的 余弦 总 和 用 于 计算 子 空间 之 间 的 相似 度 。 此 算法 优点 J 学 习 标识 函数 ， eee 与 aN 算 
是 不 用 担心 异常 什 的 影响 且 计 算 开销 不 大 ， 但 是 在 图 像 集 样本 。。“ 扑 呈 一 燃 襄 个 同 ，3DTA 外宾 同 的 NN 组 成 ， 写 代 : 肝 
规模 较 小 且 变化 很 大 时 性 能 降低 严重 。 文 献 [13] 使 用 图 像 集 的 a a ipt emi 
仿 射 包 或 凸 包 算法 来 学 习 集合 样本 ， 对 于 以 典型 实例 表示 的 图 | ， 

集 ， 将 集合 -集合 距离 定义 为 集合 代表 之 间 的 欧 氏 距离 ， 以 简 - 

， | Le 
approximated nearest points，SANP ) 算 法 ， 0 应 集合 的 均 混合 卷 积 | WE 目 
值 图 像 和 仿 射 包 算法 计算 两 组 集合 的 SANP。 然后 , 通过 SANP 。 | 省力 集 MM em ||0 0 "上 
区 戎 近似 集合 的 样本 图 像 玉 寻 找 信 全 之 间 的 最 近 点 。 但 是 文献 U 
[13][14] 的 算法 都 需要 计算 一 对 一 映射 的 集合 距离 , 对 计算 开销 医 = 各 Al 

较 大 。 近 年 来 有 文献 提出 一 些 改进 的 学 习 算 法 ， 如 基于 流 形 - 流 图 1 和 迭代 深度 学 习 算 法 (IDLA) 的 训练 示意 区 


形 距离 算法 (manifold-manifold distance algorithm，MMDA)、 基 
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于 仿 射 包 


set distance algorithm based on 


像 自 
packet image set，DAPIS)、 基 了 


距离 算法 (distance algorithm based on affine 
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[15] 提 


DD | 
[| 


图 像 集 分 类 的 


deep network, ADNT) , 深度 学 习 的 框架 | 
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编码 层 和 解码 层 
部 二 值 模式 〈local 
良好 的 
因此 ， 提 


有 助 于 获得 


用 于 重建 输入 


云 / 


性 能 ， 但 是 : 


binary pattern，LBP ) 特征 
曾 加 了 额外 的 计算 复杂 度 。 
出 了 一 种 改进 型 迭代 深度 学 习 算法 (improved 


立 深度 网 络 


山 包 的 图 像 集 距离 算法 (image 
convex hull，ISDACH) 等 。 文 献 


算法 (adaptive 


编码 


进行 


iterative depth learning algorithm，IIDLA)。 算 法 通 


函数 将 单 


迭代 避免 信息 丢 


层 卷 积 
混合 卷 积 网 (pooled convolutional layer，PCL) 和 多 重 人 工 
络 (Artificial Neural Networks, ANN) 
、 计 算 代价 高 昂 、 


丢失 


民 和 解码 
图 像 。ANDT 使 用 手动 生成 的 局 


恨 组 成 ， 


训练 和 测试 ， 


过 非 线性 激活 


神经 网 络 (convolutional neural network，cnm)、 


神经 网 
屋 有 机 融合 ,再 经 过 层次 化 
小 样本 失效 、 异 常 值 影响 


表征 方 
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| 图 像 标准 化 一 | PCA 白 


化/K- 均 值 | 


”四 到 


特 证 类 表示 法 | | 重 构 误差 
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示 
=:33 Va 


2 和 迭代 深度 学 习 算法 (IIDLA) 测 试 示意 


此 ， 


层 数 和 ANNs( AN ) 的 数量 


具有 自 适 应 


yy 性 且 对 于 任意 给 定 的 六 ， 


ul 
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取决 于 X 的 尺寸 , IDLA 


IIDLA 都 可 以 被 调 


整 。 此 


外 ， 
学 习 


的 概率 很 小 , 与 依赖 了 


提出 的 IIDLA 没有 任何 隐藏 层 


F 手 动 4 
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压缩 表示 或 陷入 恒 等 函数 
成 特征 


的 ADNT 相 比 ,IDLA 
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使 用 PCL 从 原始 图 像 中 自动 地 学 习 判 别 式 表 示 法 .PCL 的 卷 积 
滤波 器 提供 了 平移 不 变性 特征 ， 如 边界 ， 人 允许 部 分 人 脸 / 物 体 在 


一 定 程度 上 是 可 变 的 ， 经 过 设计 对 比 可 以 预见 IDLA 相 比 于 
ADNT 会 实现 更 优越 的 1 
1.1 分 类 算法 的 训练 算法 


如 图 3 和 § 述 了 提出 的 训练 算法 : 首先 从 Ws X02 二: 


CC 
o 


上 公 | 
土 目 


为 nn 个 图 库 图 像 集 ， 且 它们 相应 的 标签 为 Ly < [1,2,…,n]， 


其 中 


;图像 集 x < 1 =0;1==1,2,.…, KK。| 有 局 于 类 


9 的 KK 图像 1。 对 于 4d 个 图 像 类 中 的 每 一 个 ， 将 其 经 过 
PCL 滤波 器 ， 并 以 非 监督 的 方式 初始 化 ANNs 的 权 值 。 通 过 将 
来 自 所 有 训练 图 库 集 的 人 脸 /物体 图 像 集 集合 到 数据 集 
=U {vO eX,;v9 el[l2,...n]}, 


多 随机 采样 的 图 像 块 的 左 均 值 
练 。 根 据 经 验 选择 16x16 的 块 ， 然 
后 ,通过 减 去 均值 和 利用 其 元 素 的 标准 偏差 进行 划分 来 归 一 化 。 
为 了 在 原始 图 像 中 除去 除 元 余 的 特征 , 还 实施 了 PCL 白化。 接 
下 来 , 利用 大 小 为 二 16x16 的 滤波 器 和 和 大 小 为 上 二 128 


生成 非 监督 加 


库 数 据 身 后 ,使 用 从 图 库 和 外 
进行 PCL 滤波 的 非 监督 训 


维 Y 


uy 


7 
o 


的 滤波 器 组 执行 卷 积 。 对 于 平均 池 化 ， 步 长 $ 二 5， 池 化 区 域 
尺寸 "= 二 10 用 于 为 每 个 图 像 生成 尺寸 为 128x 64x 64 的 3D 


矩阵 。 
提出 的 IDLA 


用 4 个 图 库 图 像 集中 的 所 有 图 像 集 进行 训 
] 权 值 W",a=1...， 


练 。 且 | 


3 初始 化 每 个 IDLA， 使 得 


IIDLA 的 每 层 都 


有 应 用 空间 为 尺寸 Bx 8 的 子 空间 。 根据 经 
验 , 在 本 文中 选择 B = 4 ,于 是 在 每 层 深度 网 络 上 运 | 


j 下 列 矩 


阵 ， 


Xe R128*64x64 到 po < RR128x16x16 到 DO) 全 及 128x4x4 到 


最 后 的 p e R'”。 通 过 最 小 化 遍历 所 有 图 库 集 羡 。 实例 上 的 重 
建 误差 反 向 传播 ， 来 执行 随机 梯度 下 降 算法 ， 从 而 完成 类 特定 
表征 的 学 习 。 为 了 避免 过 度 拟 合 ， 引 入 正则 化 项 来 调整 以 上 成 
本 函数 ， 如 调整 权重 衰减 损失 项 、 稀 疏 约束 项 等 。 然 后 通过 训 


练 遍历 立 。 集 的 所 有 图 像 3D 矩阵 获得 特定 类 的 表示 6, ,如 下 


间 


B= in (Oe 


Or DLM 


(D) 


因此 , 特定 类 的 表示 0 用 于 学 习 输 入 图 像 的 底层 结构 。 
于 所 使 用 的 激活 函数 是 非 线性 的 ， 所 以 提出 的 算法 能 够 学 习 非 
常 复杂 的 非 线性 结构 。 需 要 注意 的 是 ,基于 此 算法 提出 的 IDLA 
还 是 可 扩展 的 ， 增 加 新 的 图 像 集 不 需要 在 完整 的 数据 集 上 重新 
训练。 
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其 中 : x 为 第 n 
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十 
输出 特定 类 的 表 
示 


混合 卷 积 网 络 的 正 反 


器 


传播 过 程 如 


3. 


Ce 


练 流程 示意 图 


a) 正 向 传播 。 混合 卷 积 神经 网 络 通过 激励 -响应 机 制 计算 每 


Ce i z 
X= f(y,)= 7 (Sow, 
j=0 


] 传 播 ， 基 


层 的 第 i 个 神经 元 的 输出 ; 


每 个 神 


经 元 的 输出 记 作 : 


(2) 


QA 为 第 n-1 层 的 


呈 


C, ,为 第 ml 


层 神经 元 个 数 ，; 
b) 反 辐 传 播 。 对 于 系列 确定 的 单元 互 连 形成 的 混合 卷 
积 网 络 ， 反 向 传播 用 于 学 习 网 络 的 权 值 。 
， oF 
Awi = 
wy (3) 
其 中 ”已 PE 一 7 站 )? (4) 


其 中 : Amy 表示 每 次 反 向 传播 后 权 值 的 变化 量 ， 五 , 表示 第 n 


层 的 输出 误差 ， C, 表示 第 n 层 神经 元 个 数 ，T' 表示 第 n 层 的 
期 望 输出 结果 。 

站 Bp 全 可 以 通过 下 式 进 行 推导 : 

OE, OF， Oy’ A OF， (5) 

O00’ Oy, Om’ "Ow 

oF ,OE 

Cn G(x) Ce 

到 

oF ; 

le i my 9 

Be > (7) 

二 二 为 ji vy OE, 、 

计算 出 第 n 层 权 值 O， 的 增加 值 。 而 第 n-1 时 计算 


录用 稿 
式 为 
OE a 
3 (8) 
| Oy 
按 以 上 公式 类 推 计算 每 一 层 ， 可 以 得 到 : 
BF 
0 = C0),_ pre - (9) 
CO 
其 中 ， 0, ,ow 表示 更 新 后 的 权 值 ,Dy 表示 更 新 前 的 权 值 。 


1.2 基于 图 像 集 的 分 类 算法 


和 孙 平 安 ， 


1.3 


但 如 果 想 要 获得 更 好 的 性 能 , 适 
的 预 Y 
在 第 一 个 阶段 , 以 非 监督 的 方式 初始 化 PCL 滤波 器 。 首先 ， 


从 给 然后 归 一 化 和 白 


Chin 
学 习 


利用 卷 积 神经 网 络 改进 选 代 深 度 学 习 


等 


去 的 


IIDML 的 非 监 督 预 训练 
提出 的 深度 


SIN 


| 练 流程 如 下 ,IDLA 的 非 监督 预 训 练 分 为 


区 


定 的 


像 集 中 提取 随机 块 ， 


下 来 ， 应 用 


k- 均 值 算 法 聚 类 预 处 理 块 : 


arg min 2, 之 ,| 疡 一 人 


i=] Pei 


AX Ky 合作 


学 习 网 络 已 经 将 图 像 像素 值 
当 的 预 训练 还 是 必要 


其 有 月 于 | 


图 天 吕 别 方 法 研 》 完 


] 作 原 


台 特 征 ， 
的 。 IDLA 
以 下 两 个 阶段 。 


化 这 些 块 。 接 


GD) 


FE 常 高 效 ， 实 施 


] GRBMs 实施 非 监督 分 层 预 训练 来 


鲁 棒 玻 尔 兹 曼 机 


较为 广泛 的 扩 


其 中 : J4 是 给 定 图 像 集 S; 中 点 的 均值 。 需要 注意 的 是 , 对 于 预 
图 4 描述 了 提出 的 基于 图 像 集 的 分 类 算法 流程 。 考 虑 到 n a ee 

训练 ， 使 用 k- 均 值 算法 有 三 个 主要 优点 : 计算 

个 图 库 图 像 集 和 其 标签 L, ,基于 分 类 的 图 像 集 问题 转化 为 : 给 ”简单 ;没有 超越 算法 结构 自身 的 超 参数 。 
在 第 二 阶段 ， 通 过 使 

定 查询 集 Xer = ,查找 Xo 的 类 Lowwy .对 于 ”初始 化 ANNs 的 权 值 。 其 中 GRBM 是 标 ; 

(robust Boltzmann machine，RBM) 的 一 个 应 月 
所 给 的 Woner ， 分 别 重 建 来 自 所 有 特定 类 表示 展 延伸 。 其 概率 分 布 如 下 式 ; 
OPD=12.7 的 每 种 图 像 集 Ta 如 果 p(n I) -sigmoid [Dom + 


xX" (9) 是 来 


ga (9) 一 | pa (2)| 


且 算 出 了 所 


有 个 表示 的 重建 误差 ， 对 


10 < ww 进行 投票 。 


自 表示 0, 的 图 像 义 中 的 重建 , 那么 重建 误差 为 : 


(10) 


每 个 


股票 总 数 Ln 为 投 给 利用 最 小 重建 误 


医 


投 的 票数 ， 同 时 确定 获得 最 高 票数 的 候选 类 为 查询 


query ® 


输入 查询 
图 像 集 、 
特性 类 IDLMs 


uery 


图 4 IIDLA 的 图 像 集 分 类 算法 ; 


ee 
像 集 的 类 


有 为 隐藏 节点 ，e 和 了 分别 为 可 


1.4 


-qd,) 
2 


O; 是 到 可 见 节点 Vi 的 真实 高 


斯 分 布 式 输入 的 标准 仿 


] (12) 
| (13) 


(14) 


见 


民 和 隐藏 层 的 偏差 。 


IIDLA 的 表征 
IIDLA 初始 化 后 ， 为 了 提取 不 变 特征 ， 


将 以 非 监督 方式 学 


到 的 PCL 参数 /滤波 器 卷 积 到 输入 原始 图 像 中 .用 大 小 大 x 天 的 


三池 


滤 


(N—Kk+1)x(N-k+1). 


et 


波 器 响应 ， 每 个 响应 滤波 


滤波 器 卷 积 大 小 NM x NN 的 每 个 输入 图 像 ， 


结果 产生 二 
器 大 小 为 


合并 的 卷 积 层 使 


j 它 的 非 线性 


后 即 为 卷 积 


特 怕 
为 (Nk+1)x(N—k+1) 的 ; 


JX J、 跨 步 为 § 的 正方 形 


E， 校 正和 局 部 对 比 度 归 一 化 2 


。 接 着 ， 将 大 小 


[sy 


区 域 合并 , 从 而 获 


合 响应 ， 如 下 : 


LxQxQ 的 3D 矩阵 处 。 
X 中 邻近 向 量 组 成 的 Lx BXx 记 尺寸 块 ,需要 注 


C=N—j/st+l 
对 于 每 个 输入 的 原始 图 
对 于 所 给 的 3D 甜 


水 平和 垂 


p= 


[方向 已 经 使 用 了 4 个 邻近 向 量 ; 


此 , 得 到 的 块 大 小 为 忆 x4x4( 卫 = 


4。 


By 


像 ，PCL 的 输 


波 器 的 啊 应 输出 和 大 小 为 


得 宽度 和 高 度 的 混 


(15) 
出 为 大 小 为 
阵 X ， 定 义 了 
E 意 的 是 , 在 


所 以 在 这 个 情况 下 
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个 向 量 组 成 . 另外 , 由 于 二 4, 有 /2 =16 个 向 量 。 
通过 将 输入 义 映射 到 父 向 量 P ， 从 而 将 向 量 合并 到 
下 式 : 


S 
nT 
UD 

wt 

J 


p0O=(WOX+cO) (16) 


其 中 : W(%) < RYE 是 参数 年 阵 ，Q = 上 ...,3 ， 太 人 (.) 为 非 


线性 激活 函数 (主要 为 8 形 函数 或 正切 双 曲 线 )，c 中 为 偏 移 向 


量 ， po 、 po 和 分 别 是 维度 RExe/4xx/4 、R 人 XQ/16xa116 和 


R“ 的 矩阵 。 为 了 评估 工 维 向 量 P 对 子 矩 阵 的 表征 情况 ,使 用 
父 向 量 P 进行 重 构 。IIDLA 的 重 构 结 果 给 出 如 下 : 


a=f(W p+e) 49) 
w=f (Wp+eD) C0) 
n=f(WIp+ed) CD) 


其 中 : WO,a=1...,3 为 =W® .We =W® 


和 WW 外 二 W() 所 给 出 的 权 值 ，c( 为 偏 移 向 量 。 因此， 可 通 


过 IIDLA 的 参数 6jpym = {6% ,G.} 来 表示 完整 的 IDLA， 其 


中 6w = 他 罗 ,W0 有 ={c 中 ,cD}。 然 后 , 针对 图 库 图 
像 集 的 所 有 类 ， 分 别 训练 IDLA。 


2 ”仿真 验证 及 分 析 


本 算法 是 针对 图 像 集 任务 的 人 脸 识 别 和 物体 分 类 提出 的 ， 
对 于 人 脸 识 别 的 性 能 评估 在 DMIY、YT 和 FOCUT 数据 集 上 完 
成 ， 对 于 物体 分 类 采用 的 数据 集 是 应 用 较为 普遍 的 ETC-80 数 
据 集 ， 采 用 平均 识别 率 和 标准 偏差 作为 评估 的 性 能 指标 。 将 提 
出 的 算法 与 MMDA、DAPIS、 ISDACH、 RNP、CDLA 和 ADNT 
等 几 种 算法 进行 对 比分 析 。 实验 重复 20 次 , 每 次 实验 都 是 随机 
选择 图 库 和 查询 集 以 保证 验证 的 有 效 性 。 下 面 将 给 出 这 些 数 据 
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DMIY 和 ETC-80 数据 集 09。 

FOCUT 数据 集 包 含 来 自 295 个 帧 ,像素 尺寸 为 720x480 的 
记录 个 体 510 个 正面 和 706 个 非 正面 的 视频 序列 。 序列 是 在 
不 同 的 时 间 获 得 的 ,在 这 些 序列 中 , 个 体 站 立 并 与 摄像 机 的 非 正 
面 人 脸 交 谈 。 序 列 包 含 在 会 话 期 间 发 生 的 正常 头 部 运动 ， 例 如 
头 旋转 90 度 、 举 手 、 指 向 某 处 等 。FOCUT 使 用 著名 的 VJ 人 
脸 检测 算法 从 视频 帧 中 提取 面部 03。 然 后 将 所 提取 的 面部 图 像 
大 小 调整 为 128x128。 在 本 实验 中 ， 将 每 个 视频 当 作 一 个 图 像 
， 将 20 个 视频 序列 用 作 图 库 集 ， 剩 下 的 30 个 作为 查询 集 。 
FOCUT 数据 集 样本 如 图 5 所 示 。 
YT 是 用 于 基于 面部 识别 的 图 像 的 最 全 面 且 最 具 挑 战 性 的 
数据 集 。 该 数据 集 包 含 近 2000 个 视频 , 这 些 视频 是 从 网 站 上 收 
的 100 位 名 人 的 视频 。 该 数据 集 的 面部 图 像 以 光照 、 表 情 和 
姿势 的 形式 展示 了 很 大 区 别 和 变化 。 此 外 ， 由 于 图 像 的 高 压缩 
率 ， 图 像 的 质量 和 分 辨 率 非 常 低 。 采 用 网 站 数据 集 是 由 于 其 可 
以 在 每 个 视频 序列 中 跟踪 人 脸 区 域 的 优异 特性 由 数据 集 提供 的 
在 第 一 帧 中 画面 中 的 面部 的 位 置 用 以 开始 跟踪 。 成 功 检测 之 后 ， 
截取 面部 区 域 ， 同 时 将 所 有 图 像 转换 为 灰 度 级 。 然 后 将 剪 取 的 
灰 度 图 像 调 至 128x128。 对 于 性 能 评 佑 ， 采 用 5 层 交叉 验证 ， 
在 每 层 中 每 个 对 象 有 9 个 图 像 集 ， 随 机 选择 这 些 图 像 集 中 的 三 
个 作为 图 库 集 , 而 剩 下 的 六 个 用 作 查 询 集 。YT 数据 集 样本 如 图 
6 所 示 。 

DMIY 数据 集 包 括 43 个 对 象 的 序列 , 每 个 对 象 包含 在 不 同 
时 刻 记录 的 3 个 视频 序列 ,平均 帧 数 约 为 100, 分辨 率 为 512x384 
像素 。 每 个 主题 的 面部 图 像 的 平均 数量 是 300, 在 每 个 视频 中 ， 
人 将 头 部 向 左 ， 向 右 ， 向 中 心 ， 向 上 ， 然 后 向 下 ， 最 后 再 向 中 
心 移动 ,首先 提取 来 自视 频 的 面部 , 并 将 其 大 小 调整 为 128x128。 
将 每 个 视频 当成 一 个 图 像 集 ， 随 机 选择 对 象 的 一 个 序列 作为 图 
库 集 ， 剩 下 的 3 个 序列 用 作 查 询 集 。DMIY 数据 集 样本 如 图 7 


让 


7 


Ne = 
一 
al 
i 


对 于 对 象 分 类 ， 使 用 ETC-80 数据 集 。 这 个 数据 集 包 含 八 
类 对 象 ， 包 括 苹 果 、 汽 车、 杯子 、 狗 、 马 、 梨 和 西红柿 。 每 类 
对 象 包含 10 个 子 类 别 , 如 牛 的 不 同 品种 或 苹果 的 不 同类 型 , 每 
个 子 类 有 41 个 不 同 视角 的 图 像 。 实 验 使 用 128x128 大 小 的 图 
像 ， 将 子 类 中 对 象 的 图 像 当成 图 像 集 ， 对 于 每 个 对 象 ， 选 择 五 
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集 的 详细 描述 、 实 验 结构 以 及 新 提出 的 算法 与 其 他 先进 的 图 像 
集 分 类 算法 比较 过 程 和 比较 结果 。 

2.1 实验 环境 搭建 
实验 中 面部 识别 评估 采用 常用 的 数据 集 , 如 FOCUT、YT、 


个 子 类 作为 图 库 集 , 剩 下 的 五 个 用 作 查 询 集 。ETC-80 数据 集 的 
八 类 对 象 样本 如 图 8 所 示 


图 5 FOCUT 数据 集 的 样本 图 像 
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图 6YT 数据 集 的 样本 图 


图 7 DMIY 数据 集 的 样本 图 像 


2.2 图 像 集 分 类 算法 的 比较 


图 8 DMIY 数据 集 的 样本 图 像 


GEDA 51.70 十 4.39 91.39 十 5.64 84.66 十 3.04 79.42 十 5.18 
表 1 总 结 了 提出 算法 和 领域 内 其 他 算法 的 平均 识别 率 和 标 
准 偏差 的 数据 对 比 。 为 了 更 直观 的 观察 不 同 识别 算法 的 差异 ， CPTA 55.89 十 489 98.89 圭 152 90.11 填 422 7809 士 419 
做 出 四 种 数据 集 下 的 综合 平均 识别 率直 方 图 如 图 9 所 示 。 综合 MssRC 58.99 十 5.59 97.86 十 2.78 97.68 十 092 90.95 十 3.19 
表 1 和 图 9 可 以 直观 地 看 出 ， 提 出 的 算法 获得 了 最 优 性 能 
加 ee RNP 66.17 十 5.10 ”95.71 十 2.35 95.79 十 1.35 96.12 十 2.71 
表 1 可 以 看 到 ， 提 出 的 基于 IDLA 的 算法 获得 了 最 高 识别 率 ， 
FOCUT、YT、DMIY 和 ETC-80 数据 集 上 获得 的 识别 率 分 别 是 ADNT 70.89 十 4.98 100.0 十 0.01 97.89 十 0.32 98.19 十 2.05 
77.52%、100%、98.53% 和 98.72%。 使 用 手动 生成 的 特征 可 以 
IIDLA 77.52 十 4.02 100.0 十 0.0 98.53 十 0.39 98.72 十 1.02 
进一步 增加 提出 的 IDLA 算法 的 性 能 。 可 以 看 到 相 比 于 FOCUT 
和 DMIY 数据 集 ，YT 数据 集 所 有 算法 获得 的 识别 率 很 低 。 这 平均 识别 率 对 比 图 ee 
是 由 于 YT 数据 集 最 具有 挑战 难度 , YT 数据 集 的 视频 是 在 外 貌 90.00 
条 件 变化 的 真实 生活 场景 中 捕获 的 。 
表 1 各 算法 在 评估 数据 集 上 的 平均 识别 率 和 标准 偏差 由 
率 80. 00 
人 脸 识别 对 象 分 类 全 
法 一 
YY FOCUT DMIY ETC-80 70. 00 
MMDA ”54.32 十 2.69 91.55 十 2.56 91.21 十 2.45 78.70 十 4.80 
DAPIS 62.29 十 2.24 90.98 十 2.18 93.09 十 2.01 79.15 十 5.20 图 9 综合 平均 识别 率 对 比 图 
2.3 ”图 像 集 大 小 对 IIDLA 性 能 的 影响 
ISDACH “61.02 十 5.29 94.02 十 1.83 96.85 十 1.29 79.83 士 5.12 


为 了 评估 图 像 集 样本 数 减 少 情况 下 IIDLA 算法 的 性 能 , 利 
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用 较 少 的 图 像样 本 定义 图 库 和 查询 集 。 在 具有 不 同 配置 的 图 库 ” 能 。 当 图 像样 本 数 进一步 降低 时 ， 其 性 能 会 一 定 程度 的 降低 。 
和 查询 集 的 FOCUT 上 实施 实验 。 使 用 的 图 库 集 尺寸 为 尽管 如 此 , 相 比 于 其 他 算法 IDLA 受 图 像 集 大 小 减少 的 影响 依 
{411,100,70,35}, 使 用 的 查询 集 尺 寸 为 {411,100,70,15,1}。 表 2 为 ” 然 较 小 ， 表 明 本 算法 对 过 拟 合 问题 不 敏感 。 如 前 所 述 ， 使 用 权 
不 同 尺寸 图 库 集 和 查询 集 的 实验 结果 。 表 的 第 一 行 表示 集中 使 《《” 重 衰减 损失 和 稀 玻 约束 调整 成 本 函数 通过 修正 成 本 函数 很 容易 
用 的 图 像样 本 的 数量 。 例 如 ，70-35 意味 着 图 库 集 和 查询 集中 解决 数据 集 的 规模 不 能 太 小 的 问题 。 测 试 结果 显示 ， 对 于 集中 
分 别 使 用 70 和 35 个 图 像样 本 。 该 表 反 应 了 不 同 算法 的 平均 识 图 像样 本 数量 较 少 的 情况 ， 其 他 算法 的 性 能 会 明显 降低 。 然 本 
别 率 和 平均 偏差 ， 最 后 一 列 的 “一 ”表示 这 些 算 法 不 能 评估 图 库 。” 与 之 相 比 基于 凸 包 和 仿 射 包 的 算法 ,如 ISDACH、DAPIS 和 RNP 
集中 的 一 个 图 像样 本 。 等 算法 在 不 同 图 像 规模 上 都 获得 了 较 好 的 性 能 。 在 仅 有 一 个 图 
结果 表明 新 提出 的 迭代 深度 学 习 算 法 的 性 能 优 于 其 他 所 有 像样 本 的 图 像 集 下 ， 所 有 算法 的 性 能 都 会 显著 降低 ， 而 本 算法 
对 比 算法 的 性 能 。 需 要 注意 的 是 甚至 在 图 像 集 中 的 图 像样 本 数 。”” 则 在 这 种 极端 苛刻 的 条 件 下 仍 能 获得 较 高 的 平均 识别 率 。 
非常 少 ， 甚 至 于 仅仅 为 15 的 时 候 IDLA 仍然 能 够 保持 优异 性 
表 2 图 像 集 的 大 小 对 IDLA 性 能 的 影响 ， 
算法 All-All 100-100 70-70 70-35 70-15 35-70 All-1 
MMDA 91.89 士 2.32 85.46 土 1.96 82.91 土 4.58 83.44 土 4.19 82.37 土 3.65 81.67 土 3.51 70.15 土 2.85 
DAPIS 91.05 土 1.45 91.85 十 3.19 89.99 二 2.39 91.29 土 3.43 90.21 土 1.98 88.94 土 1.95 77,59 直 7,72 
ISDACH 93.98 土 1.56 90.89 士 2.26 90.82 土 2.19 90.01 土 4.16 87.23 土 2.53 86.35 土 2.46 75.68 土 8.65 
CDLA 98.88 土 1.89 95.93 十 2.00 93.72 十 2.16 91.54 十 3.19 88.51 十 4.62 89.22 十 5.14 70.36 士 5.81 
MSSRC 97.90 土 3.16 97.27 土 1.76 94.22 十 1.36 91.26 十 3.15 91.18 土 2.56 91.37 土 2.29 73.56 士 4.91 
RNP 96.13 土 2.35 92.56 土 3.45 90.53 土 3.16 89.64 土 5.61 85.92 二 2.86 85.68 土 2.52 40.02 土 8.16 
ADNT 99.65 土 0.16 98.89 土 1.85 96.88 土 2.89 92.87 土 4.27 84.14 士 4.22 84.04 十 4.75 74.65 十 7.49 
IIDLA 100.00 士 0.0 100.0 士 0.0 97.96 圭 2.56 95.85 十 2.02 84.31 土 4.12 84.91 土 4.65 75.16 土 5.24 
、 603-606. ) 
3 ”结束 语 、 
[3] 马 思 伟 . AVS 视频 编码 标准 技术 回顾 及 最 新 进展 [中 . 计算 机 研究 与 发 
车 于 图 像 集 的 人 脸 /物体 识别 提出 了 IIDLA。 该 算法 由 混合 展 ，2015，52 (1): 27-37. (Ma Siwei，AVS video encoding standard 
卷 积 层 和 自 适 应 多 层 卷 积 神经 网 络 组 成 ， 以 非 监督 的 方式 预 训 technology review and the latest progress of [J]. Computer research and 
练 IDLA 获得 初始 化 参数 ， 并 进行 特定 类 特征 学 习 。 深 度 学 习 development, 2015, 52 (1): 27-37. ) 
算法 经 过 FOCUT、YT、DMIY 和 ETC-80 等 数据 集 上 的 人 脸 / [4] Yang Mi, Wang Xue, Liu Wen, et al. Joint regularized nearest points for 
物体 识别 的 评估 测试 。 通 过 与 其 他 图 像 识别 、 分 类 算法 进行 比 image set based face recognition [J]. Image & Vision Computing, 2017, 58 
较 ， 结 果 表 明 提 出 的 算法 性 能 更 优 。 (C): 47-60. 
此 外 ，IIDLA 在 自 动 视觉 识别 相关 的 诸多 领域 有 着 巨大 的 [5] Hu Huan, Gu Jian. Multi-manifolds discriminative canonical correlation 
发 展 潜力 。 下 一 步 工 作 中 ， 会 使 用 更 复杂 的 字典 学 习 算 法 1 analysis for image set-based face recognition [J]. Cognitive Computation, 
如 稀 玻 编码 和 变量 代替 K- 均 值 算法 ， 以 求 进一步 扩展 。 2016, 8 (5): 900-909. 
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